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摘要 : 古文 献 的 研究 有 助 于 传统 文化 的 继承 与 发 扬 ， 而 古文 分 词 则 是 利用 自然 语 
言 处 理 技术 对 古文 献 进行 分 析 的 重要 环节 ， 但 由 于 缺少 规范 的 数据 资料 而 没有 像 现 
代 汉 语 分 词 取得 突破 性 进展 。 当 前 互联 网 拥有 大 量 古 汉 语文 本 和 词典 方面 的 数据 资 
料 ， 但 是 这 些 数据 分 散 ， 没 有 得 到 有 效 地 整合 。 本 文 提出 采集 互联 网 非 结构 化 古 汉 
语 数据 ， 经 过 数据 清洗 和 预 处 理 抽取 出 一 个 古 汉 语 基础 词典 ， 然 后 再 利用 互信 息 、 
信息 焙 、 位 置 成 词 概率 相 结 合 的 新 词 发 现 方法 从 大 规模 古籍 文本 中 抽取 古 汉语 候补 
词典 ， 最 终 将 基础 词典 与 候补 词典 融合 ， 利 用 正 向 最 大 匹配 实现 对 古文 的 分 词 。 与 
开源 的 分 词 器 甲 言 在 基于 词典 的 分 词 方面 比较 后 F 值 提 高 了 14%， 取 得 了 良好 的 效 
果 ， 结 果 证 明 本 文 构建 的 分 词 器 可 以 应 用 在 十 汉语 文本 分 词 上 。 
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Abstract: The corpus The study of ancient documents is helpful for the inheritance and 
development of traditional culture, and ancient Chinese word Segmentation is an important 
part of the analysis of ancient documents by using natural language processing technology, 
but due to the lack of standard data, it has not made a breakthrough like modern Chinese word 
segmentation. At present, there are a large number of ancient Chinese text and dictionary data 
on the Internet, but these data are scattered and not effectively integrated. This paper proposes 
to collect unstructured ancient Chinese data on the Internet and extract a basic dictionary of 
ancient Chinese through Big Data processing, then extract the candidate Dictionary of ancient 


Chinese from large-scale ancient Chinese texts by using the new word discovery method 


combining mutual information, information entropy and position word probability. Finally, 
we integrated the basic dictionary and the addition dictionary and used the forward maximum 
matching to tokenize ancient Chinese text. Compared with the open-source ancient Chinese 
tokenizer "Jiayan", the F value which segment based on the dictionary was improved by 14%, 
and good results were achieved. The result showed that this tokenizer constructed in this 
paper can be applied to ancient Chinese text word segmentation. 


Key words: ancient Chinese word segmentation; Big Data; corpus; Apache Spark 


中 国 古 代 文 献 是 一 个 宝藏 ， 从 古 汉 语文 本 中 挖掘 有 价值 的 信息 在 考古 中 有 很 重要 的 意 
义 [1]。 通 过 对 古文 献 的 分 析 研 究 ， 有 助 于 进一步 弘扬 传统 文化 ， 而 古文 分 词 则 是 利用 自然 
语言 处 理 技 术 对 古文 献 进行 分 析 的 重要 环节 。 由 于 古文 和 现代 汉语 无 论 是 在 词汇 还 是 在 语 
法 上 都 有 很 大 的 不 同 ， 探 索 古文 的 有 效 分 词 是 吸 竺 解决 的 问题 。 

相关 学 者 在 古文 分 词 方面 做 了 大 量 研究 。 严 顺 [2] 提出 了 基于 条 件 随机 场 (CRF) 的 古 
汉语 分 词 模型 ， 王 晓 玉 等 [3] 将 CRFs 模型 和 词典 相 结 合用 于 古 汉语 的 分 词 ， 钱 智勇 等 [4] 
使 用 隐 马 尔 科 夫 模 型 对 《 楚 辞 》 进 行 了 自动 分 词 标注 的 研究 实验 , 取得 了 较 好 的 效果 ; 李 筱 
瑜 等 [5] 将 互信 息 ， 信 息 炉 相 结 合 进行 新 词 发 现 ， 并 与 词典 信息 结合 用 于 古籍 文本 分 词 研 
晶 是 准确 度 并 不 高 。 

本 文 利用 大 规模 网 络 古 文 语料库 ， 通 过 对 海量 古文 资料 的 分 析 [6]， 构 建 古文 词典 。 首 
先 ， 通 过 怜 虫 从 互联 网 采集 古 汉 语 相关 的 数据 集 ， 经 过 数据 清洗 和 转换 得 到 一 个 古 汉 语 基 
而 词典， 这 个 基础 词典 是 由 互联 网 的 非 结构 化 数据 转换 所 得 ， 赛 括 了 大 部 分 古 汉 语 字 词 ， 

但 是 并 不 能 保证 古 汉 语词 汇 的 全 面 性 ， 所 以 本 文 进一步 采用 互信 息 、 信 息 炉 L8] 和 位 置 成 词 
概率 [7] 相 结合 的 新 词 发 现 方法 ， 从 大 规模 古籍 文本 中 抽取 古 汉 语词 汇 并 得 到 候补 词典 ， 以 
此 来 弥补 基础 词典 的 不 足 。 在 融合 得 到 的 新 词典 的 基础 上 ， 本 文 利用 正 向 最 大 匹配 实现 对 
古文 的 分 词 ， 并 与 开源 古 汉语 分 词 器 甲 言 [9] 进 行 分 词性 能 比较 。 


2 研究 方法 
2.1 基础 词典 的 构建 
在 互联 网 发 达 的 今天 ， 互 联网 上 有 很 多 古 汉语 相关 的 数据 ， 例 如 收录 词典 的 网 站 ， 汉 
文学 网 [25] ， 词 典 网 [26] ， 汉 典 [27] ， 在 线 汉语 字典 [28] ， 国 学 大 师 [29] 等 ，Github 上 也 
有 很 多 开放 的 古 汉 语 数 据 集 ， 百 科 上 也 有 古 汉语 相关 的 文本 资料 。 

本 文 统 一 将 数据 抽取 到 Hadoop, 存储 在 hdfs 上 。Hive 用 于 数据 的 统计 ， 在 分 布 式 数 据 
索引 方面 选择 Apache Elasticsearch[11] 用 于 筛选 古 汉语 数据 集 ，Spark 用 于 数据 处 理 。 


~ 


Dg 
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总 体 流程 如 图 1 所 示 。 


互联 网 非 结 ee | 
构 化 数据 古 汉语 数据 收集 数据 预 处 理 


汉语 词典 ls 数据 处 理 与 分 析 | 数据 存储 
vy 


互信 息 ， 邻 接 烦 ， 
位 置 成 词 概 率 的 新 
词 发 现 


图 1 古文 词典 构建 的 处 理 流程 


本 文通 过 调查 并 选取 了 与 古 汉 语词 汇 相 关 的 网 站 ， 通 过 分 析 它 们 的 robots 协议 和 许可 
限制 ， 最 终 确 定 可 以 用 于 把 虫 采集 数据 的 网 站 。 经 过 数据 的 采集 ， 转 换 ， 抽 取 了 22203 个 
，364761 个 词语 。 但 是 这 些 字 和 词语 并 不 完全 是 古 汉 语 ， 还 包括 一 些 现代 字 和 词 。 这 就 


字 
需要 对 数据 进行 进一步 处 理 ， 将 现代 字 和 词 过 滤 摊 。 但 是 人 工 对 这 些 字 词 进行 筛选 的 工作 
量 


是 巨大 的 ， 并 且 存 在 人 为 的 误差 ， 本 文通 过 搜索 上 古文 语料库 实现 对 古 汉 语 字 词 的 第 选 。 
为 了 判断 某 一 个 字 或 者 某 一 个 词 是 否 为 古 汉 语 字 词 ， 在 证 汉 语 语料库 中 进行 查找 ， 如 果 在 
语料库 中 存在 ， 就 被 认定 为 古 汉语 字 或 者 古 汉 语词 语 ， 和 否则 不 是 。 


Github 上 有 很 多 开源 的 证 汉语 语料库 ， 其 中 ， 汉 语 古 典 文本 资料 库 L12] 有 13000 种 文 
本 ，10 万 卷 ， 近 13 亿 字 ， 大 小 为 3. 14 GB， 基 本 上 涵盖 了 所 有 朝代 的 古籍 文献 ， 本 文选 定 


这 个 数据 集 作 为 筛选 古 汉 语 字 词 的 依据 。 为 了 达到 良好 的 搜索 性 能 ， 首 先 在 Apache 


Elasticsearch 7.4.2 中 将 3. 14 GB 的 古 汉 语 语 料 库 建立 索引 ， 人 然后 通过 Elasticsearch 


提供 的 检索 API 对 词典 ， 


的 字 和 词 进行 筛选 。 如 果 某 个 字 或 者 词语 能 在 Elasticsearch 索 


引 库 中 检索 到 ， 就 将 这 个 词 标记 为 文言 词汇 ， 最 终 形成 一 个 只 有 十 汉语 字 词 的 候选 词 表 。 


对 于 Elasticsearch 中 索引 


sw 


导 到 的 字 和 词 转换 成 字典 文件 ， 并 丛 换 IK 


和 检索 所 用 的 分 词组 件 ， 本 文 使 用 了 IK 分 析 插 人 


是 能 够 精确 地 按照 中 文 词典 分 


站 词 ，Mapping 设置 如 下 ， 


FL31]， 将 上 文 
F 原 有 的 字典 文件 ，analyzer 配置 为 IK 的 优点 


“properties”: { 


“content”: { 


“type”: “es 


LA LA 
analyzer : 


“search analy 


} 


“ik smart”, 


Zer”: “ik Smart 


Elasticsearch 有 三 种 搜索 方式 ，term，match 和 match phrase， 


其 中 match 和 


match_phrase 都 会 对 搜索 关键 词 进行 拆 分 ， 然 后 对 子 关键 词 再 进行 检索 ， 这 样 就 无 法 满足 
本 实验 的 要 求 ， 而 term 搜索 方式 能 够 做 到 整 词 匹配 ， 虽 然 term 搜索 方式 会 将 字典 中 不 存 
是 这 不 影响 本 实验 的 结果 ， 因 为 本 实验 针对 的 是 字典 中 的 词 进 


在 的 词语 进行 单字 拆 分 ， 但 


行 检测 ， 没 有 字典 之 外 的 词语 。 


接 下 来 经 过 去 重 处 理 和 繁体 字 转 换 ， 得 到 了 一 个 包含 


331516 个 字 词 的 词典 ， 本 文 称 之 为 基础 词典 ， 其 中 词语 有 66712 个 。 由 于 字 对 分 词 的 准确 


度 的 影响 并 不 高 ， 所 以 本 文 重点 统计 了 基础 词典 中 的 两 个 字 以 上 的 词语 的 一 些 分 布 特征 
在 料 中 出 现 的 次 数 ， 纵 坐标 代表 这 个 频率 的 词 有 多 少 个 ， 如 图 


Sr 


黄 坐 标 代表 词语 在 3. 14 GB i 
2 所 示 。 
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词汇 出 现 频率 


图 2 基础 词典 不 同 词 频 的 词 分 布 


由 上 图 可 以 看 出 ， 频 率 在 10 左右 的 词汇 占 了 大 约 4 万 个 ， 词 频 在 10 以 上 的 词汇 的 数 


量 比较 少 。 


2.2 新 闻 发 现 

新 词 发 现 是 自然 语言 处 理 的 重要 的 一 项 技术 ， 用 于 抽取 字典 中 没有 的 新 词 [ 
取 古 文 基础 词典 后 ， 仍 然 难 以 确保 基础 词典 收录 了 全 面 的 古 汉 语 字 词 。 为 了 弥 间 
的 不 足 ， 在 这 一 步 又 中 ， 本 文 提 出 了 多 特征 融合 的 方法 实现 新 词 发 现 ， 综 合 采 用 
频 、 互 信息 、 信 息 米 、 位 置 成 词 概 率 相 结 合 的 方式 在 大 规模 语料库 中 抽取 新 词 ， 


13] 。 在 获 
上 基础 词典 
N-Granm 词 
语料库 采 


用 上 文 提 到 的 开源 的 3. 146B 的 汉语 古典 文本 资料 库 。 在 既往 演 剧 中 也 有 采用 新 诉 


司 发 现 的 方 


式 抽取 古 汉语 词汇 [5]， 但 是 这 些 方法 均 在 少量 的 语料库 上 进行 实验 ， 效 果 并 不 理想 ， 而 
在 本 实验 中 采用 大 规模 语 料 ， 并 使 用 分 布 式 计算 平台 Apache Spark 进行 新 词 发 现 。 
N-Gram 是 一 个 统计 语言 模型 [14]， 它 的 假设 是 ， 第 N 个 词 的 出 现 只 与 前 面 N-1 个 词 相 


关 ， 而 与 其 它 的 词 都 不 相关 。 本 文 首先 对 古 汉语 文本 进行 切 分 ， 切 分 后 的 每 个 六 


语 。 使 用 N-Gram 的 优点 是 语言 无 关 性 ， 不 需要 对 古 汉语 文本 进行 语言 学 处 理 。 


元 被 认为 


是 一 个 gram, 进而 统计 出 每 个 gram 的 频率 。 根 据 设 定 的 阀 值 ， 过 滤 掉 不 符合 词 长 要 求 的 词 


互信 息 和 信息 炉 都 是 信息 论 中 的 概念 [15]， 互 信息 可 以 计算 两 个 对 象 的 关联 程度 ， 如 


果 X 和 Y 互相 独立 ， 那 么 X 和 YY 之 间 互 相 不 提供 任何 信息 ， 他 们 的 互信 息 就 为 


0。 N-Gram 


获取 高 频率 的 文本 片段 ， 但 是 一 个 文本 片段 出 现 的 频率 高 并 不 能 代表 这 个 文本 片段 是 一 个 
真正 的 词语 ， 它 可 能 是 多 个 词语 结合 在 一 起 的 词组 。 本 文采 用 互信 息 度量 不 同文 本 片段 的 


凝固 程度 。 互 信息 的 计算 公式 如 下 ， 


MI Wn) = Jag2 eC) 


pwn) = @) 


pwW1** wi)p (Wi wn) (3) 


其 中 ，wi… wh 代表 由 多 个 字 构 成 的 词语 ，p(wi… wh) 代表 词语 wj…w 在 语料库 中 出 现 的 


概率 ，f(wi …ws) 代表 词语 wi … wi 在 语 料 中 出 现 次 数 ，num 表示 语料库 的 字数 ，avg (wl 
wn) 表示 词语 中 的 字 不 同 组 合 的 平均 概率 。 

信息 炳 也 被 称 为 自由 度 ， 用 于 判断 十 汉语 文本 左右 相 邻 字符 的 相互 关系 的 稳定 性 ， 粮 
= 越 大 ， 稳 定性 越 小 ， 越 有 可 能 称 为 独立 的 词 。 信 息 丹 分 为 左 信息 粹 和 右 信息 粹 。 左 信息 贷 
O 代表 一 个 文本 片段 与 左边 的 字符 相 结合 的 稳定 程度 ， 右 信息 粮 代 表 一 个 文本 片段 与 右边 的 
字符 相 结合 的 稳定 程度 ， 计 算 公式 如 下 ， 


Hiert(W) = 了 p(wiert|w) log> p(wieri|w) (4) 


| WieftCleft 


其 中 ，Hiope(W) 是 候选 词语 w 左 信息 焙 ，ciept 是 候选 词 w 左边 相 邻 的 字符 集合 ，p (wiept |w) 


是 出 现 候选 词 w 时 ， 其 左边 相 邻 字符 wept 的 条 件 概率 。p(wiertIw) 的 计算 公式 见 式 (5)， 


NCwiert 
pwiorilw) = ee (5) 


其 中 ，NCwierb) 是 左边 相 邻 字符 wieft 及 候选 词 w 共 同 出 现 的 概率 ，N(w) 是 候选 词 ww 单独 出 
现 的 概率 ， 同 理 ， 右 信息 炉 可 判断 词语 右边 界 ， 候 选 词 右 信息 烂 计算 方法 如 公式 (6) 所 示 ， 


HigaW)=— >》 plwignlw)logzp(wrignelw) (6) 


WrightCright 


其 中 ， 忆 ua(W) 是 候选 词语 w 右 信息 精 ，cnont 是 候选 词 w 存 动 礁 狐 扒 交 戎 儒 耸 ， 


p(wriont|w) 是 出 现 候 选 词 w 时 ， 其 右边 相 邻 字符 wignt 的 条 件 概率 。p (wisnt|w) 的 计算 公 


式 见 式 (7)， 


N right 
p(wrianlw) = Ci 07) 


其 中 ，N(wight) 是 右边 相 邻 字符 wiigpht 及 候选 词 w 共 同 出 现 的 概率 ，N(w) 是 候选 词 w 单 独 
出 现 的 概率 。 

由 于 新 词 发 现 需要 将 在 整个 语料库 加 载 到 内 存 上 进行 计算 ， 只 有 在 整个 语料库 上 重复 
出 现 过 的 字符 串 才 可 能 是 候选 词 ， 因 此 语料库 越 大 ， 所 需要 的 内 存 也 越 多 ， 时 间 复 杂 度 也 
越 大 。 本 文 基于 Spark 实现 了 并 行 处 理 [16]， 在 效率 上 有 了 很 大 提升 ， 算 法 基本 流程 如 表 


1 所 示 ， 


表 1 新 词 发 现 算法 基本 流程 


算法 基本 流程 
输入 : 原始 语 料 D= {S1，S$2，…，Sn)} 
输出 : 候选 词 的 集合 
Q 将 原始 语 料 文件 以 RDD 变 量 的 形式 读 入 内 存 ， 假 设 该 RDD 变 量 为 corpus rdd。 
@@ 对 corpus rdd 的 每 一 行 ， 把 出 现 的 每 一 个 字符 存 到 数组 中 ， 并 将 每 个 字符 映射 到 
频率 (也 就 是 1 )。 最 后 用 Reduce 操 作 把 相同 字符 的 频率 相 加 ， 得 到 每 个 元 素 是 〈 字 
符 ， 频 率 ) 的 RDD 量 nGram RDD。 
@ 对 RDD 变 量 nGram RDD 做 filter 操 作 ， 将 频率 大 于 阔 值 的 词 保留 ， 得 到 新 的 RDD 变 量 
nGram filter_RDD。 
四 使 用 map 操 作对 RDD 变 量 nGram_ filter_RDD 中 的 每 个 词 计算 信息 炳 。 
@ 使 用 map 操 作 计算 好 词 频 和 信息 炉 的 RDD， 建 立 Trie 树 。 
@@ 使 用 broadcast 操 作 将 建 好 的 Trie 树 广播 到 其 他 节点 ， 减 少 计算 中 的 通信 开销 。 
G@) 使 用 map 操 作 计 算 互 信息 ， 并 过 滤 掉 低 于 互信 息 和 信息 业 阔 值 的 词语 ， 返 回 最 终 的 


字典 集合 。 


Trie 树 是 一 个 树 形 的 结构 ， 也 是 哈 希 树 的 变种 [23] 。 


能 够 最 大 限度 地 减少 字符 串 的 比较 ， 尤 其 在 动态 地 增加 或 者 修改 数据 的 场景 下 


好 。 本 文通 过 Spark RDD 实现 了 分 布 式 的 Trie 树 ， 


在 效率 上 有 了 提升 [17]。 


Trie 树 利用 前 级 来 缩短 检索 时 间 


性 能 表现 更 


RDD 是 弹性 分 布 式 数据 集 [18]， 是 Spark 实现 分 布 式 处 理 的 基石 ，RDD 能 将 数据 分 布 在 


多 台 机 器 上 ， 提 高 了 计算 性 能 。 本 文采 用 的 Spark 集群 采用 1 个 master 主 


slave 从 节点 组 成 ， 节 点 配置 如 表 2 所 示 ， 


表 2 节点 配置 
项 目 名 词 说 明 
CPU 8 Core, Interl Xeon 
Memory 64GB 
Disk 1TB 
09 Ubuntu 18. 04.3 LTS 


Java Version JDK 1.8 


Hadoop Version 3.2.0 
Spark Version 2.4.4 


在 算法 中 涉及 了 算法 的 超 参 数 配 置 ， 本 文选 取 的 参数 闵 值 如 表 3 所 示 ， 


表 3 参数 配置 

参数 参数 值 
最 小 词 频 10 
最 大 词 长 2 
最 小 词 长 8 
互信 息 阐 值 0.2 
言 恩 箭 阔 值 0.2 


上 


通过 运算 ， 以 表 4 所 示 的 样式 输出 


~ 


控 节 点 ，3 个 


至 此 ， 通 过 词 频 统计 并 搭配 互信 息 ， 


表 4 


算法 输出 结果 


信息 。” 互信 息 词 频 词语 
5.125501 200.1129 61 岂 峰 
4.775116 97.83365 104 涅 此 
4.569175 167.3033 63 徘徊 
3.947703 653 18 邂逅 
4.36353 240.5139 41 邯郸 
3.459432 1127.909 11 阁 阅 
3.563074 477.1923 25 琵 匡 
3.721612 589.3325 19 窗 容 
3.25 775.4375 16 力 效 
4.682079 194.9931 43 得 外 
3.560935 275.7111 38 阮 殉 
4.026244 180.8911 51 糟粕 
3.640224 653 15 岗 赴 
2.867634 563.9545 22 婕 好 
3.418296 827.1333 12 澳 涩 
3.558519 438.6313 21 玲珑 
3.741446 437.6367 20 短 瞧 
3.471354 496.28 19 鳌 硅 
3.886842 347.049 24 


言 息 炉 得 到 的 词典 已 经 涵盖 了 足够 多 的 候补 词语 ， 


但 是 仍然 存在 一 些 非 古 汉语 词语 ， 这 些 词语 有 些 是 完整 词语 的 部 分 片段 ， 例 如 ,“ 开 家 志 ” 


不 是 


个 完整 的 词语 ， 一 般 用 法 为 “ 刘 氏 家 世 ”, “家世” 为 了 进一步 提高 成 词 的 准确 度 ， 


本 文通 过 位 置 成 词 概率 [7] 对 上 一 步 得 到 的 词典 进行 过 滤 。 在 古 汉 语 中 ， 每 个 字 或 者 词语 都 


的 结尾 ， 


6 秀才 2 


“ 王 进 才 ”, 所 以 在 结 


PWP(w, pos ) = 


有 上 自己 的 构 词 规律 ， 茶 个 字 会 出 现在 合成 词 的 固定 的 位 置 ， 例 如 “ 才 ” 一 般 出 现在 某 个 词 
民 这 个 位 置 的 概率 比较 高 。 位 置 成 词 概率 公式 为 ， 


N(w, pos ) 
~ (8) 


其 中 ，pos 表示 古 汉 字 w 在 该 词 中 出 现 的 位 置 ， 位 置 包括 词 首 ， 词 中 ， 词 尾 ， 
N(w，pos ) 表示 w 出 现在 词语 中 的 位 置 pos 的 所 有 词语 的 频次 ; NGCw，pos ) 则 表示 w 在 
基础 词典 的 词语 中 出 现 的 总 次 数 ， 根 据 这 个 公式 ， 本 文 基于 上 文 得 到 的 基础 词典 计算 出 位 
置 成 词 概率 表 ， 如 表 5 所 示 ， 


表 5 位 置 成 词 概率 表 


古 汉 字 ” 词 首 概率 ” 词 中 概率 ”词尾 概率 


滩 0.234848 0.037879 0.727273 
老 0.547358 0.188435 0.264207 
考 0.494881 0.051195 0.453925 
者 0.526316 0 0.473684 
者 0.052805 0.29703 0.650165 
者 0.694118 0.070588 0.235294 
者 0 0 1 
者 0 0 1 
Ea 0.411765 0 0.588235 
而 0.031208 0.913161 0.055631 
要 0.642857 0.042857 0.314286 
页 0.416667 0 -0.583333 
形 0.5 0 0.5 
耐 0.606061 0.090909 0.30303 
来 0.333333 0 0.666667 


假设 一 个 词语 词 首 含 有 茶 个 古 汉 字 ， 这 个 古 汉字 在 词 首 的 位 置 的 概率 越 小 ， 表 明 这 个 
词语 成 为 古 汉 语词 语 的 可 能 性 越 小 ， 同 理 ， 如 果 一 个 古 汉字 在 词尾 的 位 置 的 概率 越 小 ， 表 
明 这 个 词语 成 为 古 汉 语词 语 的 可 能 性 也 越 小 。 

最 终 ， 本 文 在 基于 互信 息 和 信息 炉 得 到 的 词典 中 通过 计算 首 字 和 尾 字 的 位 置 概率 ， 将 
不 合理 的 词 再 次 过 滤 ， 得 到 最 终 的 词典 ， 本 文 称 之 为 候补 词典 。 

在 候补 词典 中 ， 本 文 统 计 了 不 同 长 度 的 词语 的 数量 分 布 ， 如 图 3 所 示 ， 
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图 3 候补 词典 中 不 同 长 度 的 词语 的 数量 比较 


由 此 可 见 ， 在 候补 词典 中 ， 二 字 词 和 三 字 词 占 比 最 多 ， 并 且 二 字 词 和 三 字 词 数量 接近 。 


2. 3 分 词 器 的 构建 


中 文 的 分 词 算 法 [19] 有 很 多 ， 根 据 它们 的 原理 ， 可 以 分 为 三 种 ， 基 于 词典 的 分 词 ， 基 


于 统计 的 分 词 ， 基 于 理解 的 分 词 ， 其 中 基于 词典 的 分 词 的 算法 的 分 词 速度 是 最 快 的 。 基 于 
词典 的 分 词 算法 主要 有 正 向 最 大 匹配 ， 逆 向 最 大 匹配 ， 双 向 最 大 匹配 。 

甲 言 是 github 上 开源 的 古 汉 语 分 词 器 ， 是 一 个 完整 的 分 词 系统 ， 主 要 分 词 方式 有 两 种 ， 
一 种 是 正 向 最 大 匹配 分 词 ， 男 一 种 是 使 用 训练 好 的 HMM[4] 模 型 来 分 词 。 


在 获取 基础 词典 和 候补 词典 后 ， 我 们 将 两 个 词典 整合 在 一 起 ， 其 ， 


有 一 部 分 会 有 相同 的 词 


语 ， 这 一 部 分 词语 通过 宛 余 处 理 合 并 ， 最 终 形成 词典 并 作为 分 词 器 的 分 词 词典 。 本 文 使 用 


正 向 最 大 匹配 作为 分 词 算 法 [24] 。 


3 结果 与 分 析 
3. 1 测试 数据 集 


为 了 测试 古文 分 词 的 准确 性 ， 就 需要 一 个 已 标注 好 的 语料库 作为 测试 依据 。 宾 夕 法 尼 
亚 州 语言 数据 联盟 大 学 网 站 [20j] 提 供 了 人 工 标 注 的 文言 语料库 (LDC2017T14) ， 该 语料库 是 
对 左 传 的 分 词 和 词性 的 标注 ， 共 包含 了 180, 000 个 中 文字 符 ， 由 两 部 分 构成 ， 训 练 数据 
(166138 字 ) 和 测试 数据 (28131 字 )， 数 据 格式 为 纯 文本 文件 ， 如 表 6 所 示 。 


表 6 左 传 语料库 样 例 


左 传 语料库 样 例 

元 年 /t ，/w 春 /n ，/w 王 /n 正月 /t 辛 已 /t ，/w 普 ]ns 魏 舒 /nr 合 /v 诸侯 和 
之 /u 大 夫 /n 于 /p 狄 泉 /ns ，A 将 /d 以 /c 城 /n 成 周 /ns 。/w 

魏 子 /nr 落 政 /v 。/w 

本/ns 彪 伦 /nr 日 /v : /Ww“/w 将 /d 建 /Vv 天子/n ，/w 而 /ce 易 位 /v 以 /c 令 
/Vv ，/wW 非 /d 义 /v 也 /y 。/w 大 事 /n 奸 /v 义 /n ，/w 必 /d 有 /Vv 大 和 个 mn 。/w 
普 jns 不 /d 失 /v 诸侯 mn ，/w 魏 子 /nr 其 人 u 不 免 /v 乎 /y ! /Ww ”/w 


然而 该 数据 只 包含 左 传 的 数据 ， 数 据 的 多 样 性 略 显 不 足 。 我 们 扩展 了 一 些 数 据 集 ， 首 
先 选 取 一 些 代表 性 的 ， 不 同 朝代 的 文言 语 料 ， 其 中 包括 春秋 ， 战 国 ， 秦 朝 ， 汉 间 ， 殊 晋 南 
北角 ， 隋 唐 ， 宋 朝 ， 辽 金 元 ， 明 明 ， 清 间 ， 然 后 组 织 了 上 古 汉语 专业 学 生 进 行人 工 标注 ， 最 
终 与 左 传 的 数据 集 进行 合并 ， 作 为 测试 集 。 选 取 的 古籍 文本 出 处 如 表 7 所 示 ， 


表 7 标注 的 文本 的 出 处 


朝代 节选 出 处 
《史记 。 田 敬 仲 完 世家 》《 史 记 。 晋 文 称霸 》《 论 语 。 学 而 篇 》《 邓 
和 析 子 .无 厚 》《 史 记 。 项 羽 本 纪 》 
《史记 “。 和 孟尝君 列传 》《 全 上 十 。 上 书 说 秦 昭 王 》《 楚 辞 。 离骚 》 
《和 孟子. 梁 惠 王 、 公 和 孙 丑 》》 
《史记 。 秦 始 皇 本 纪 》《 韩 非 子 。 存 韩 。 上 书 韩 王 》《 史 记 。 李 斯 
传 。 上 书 对 二 世 》 
人 和 
“《 伟 子 》《 抱 朴 子 》《 三 国志 。… 魏 书 ， 武文 世 王 公 传 》《 陆 景 >》《 典 
晋 南北 朝 本 
里 _《 史 通 。 自 氢 》《 长 乐 老 自 条 》《 与 文 征明 书 》《 先 侍 御 史 府 君 神 道 
表 》 
宋朝 《金石 录 后 序 》《 指 南 录 后 序 》《 训 俭 示 康 》《 九 议 》 


辽 金 元 _《 辽 史 》《 归 潜 堂 记 》《 金 史 》《 元 史 。 本 纪 第 一 》 


《 御 制 皇 陵 碑 》《 前 历 试卷 自序 》《 白 牛 生 传 》《 立 命 之 学 》 
《三 十 自述 》《 三 依 歼 人 广 自序 》《 强 园 老 民 自 传 》《 与 弟 文 韶 书 》 


标注 方法 是 将 原 


台 文 本 中 的 字 ， 词 ， 标 点 符号 使 用 空格 分 开 ， 标 注 样 例 如 表 8 所 示 ， 


表 8 人 工 标注 样 例 


人 工 标注 样 例 


元 年 王充 者 ， 会 稿 上 在 人 也 , 字 仲 任 。 其 先 本 魏 和 郡 元 城 一 姓 。 孙 一 
几 世 党 从 军 有 功 ， 封 会 稽 阳 亭 。 一 岁 仓 卒 国 绝 ， 因 家 需 。 以 农 


桑 为 业 。 
众多 。 
稿 ， 留 钱 
即 充 父 


由 于 左 传 的 


会 世 扰 乱 ， 有 和 恐 为 怨 仇 所 擒 ， 祖父 泛 举 家 榴 载 ， 就 安 会 


世祖 勇 任 气 ”， 卒 威 不 把 於 人 。 岁 凶 ， 横 道 伤 杀 ， 和 怨 仇 


Fz 


祖 世 任 气 ， 至 蒙 、 诵 滋 其 。 故 蒙 、 诵 在 钱 唐 


标注 格式 区 分 了 词性 ， 所 以 这 里 还 需要 将 左 传 的 标注 格式 转换 成 空格 标注 


的 格式 ， 如 表 9 所 示 ， 


表 9 左 传 语料库 标注 格式 转换 后 的 格式 


左 传 语料库 标注 格式 转换 后 的 格式 


元 年 ， 春 ， 
成 周 。 

魏 子 耸 政 。 
卫 彪 佬 日 : 
必 有 大 咎 。 


3.2 词典 扩展 前 


王 正月 辛 已 ， 普 魏 舒 合 诸侯 之 大 夫 于 狂 果 ， 将 以 城 


“将 建 天 子 ， 而 易 位 以 令 ， 非 义 也 。 大 事 奸 义 ， 
晋 不 失 诸 候 ， 敢 子 其 不 免 平 ! ” 


后 的 效果 比较 


由 于 古 汉语 和 现代 汉语 在 验证 准确 度 的 方法 上 是 一 样 的 ， 所 以 本 文 使 用 了 Bakeoff 


2005 数据 集 [21] 包 含 的 perl 脚本 ，Bakeoff 是 国际 计算 语言 学 会 ACL〉 中 文 语言 处 理 小 


组 SIGHAN 所 主办 


的 国际 中 文 语言 处 理 竞赛 ， 而 Bakeoff 2005 是 SIGHAN 于 2005 年 在 韩国 


济州 名 举行 的 第 二 届 竞 赛 的 数据 集 ， 该 数据 集 是 完全 免费 和 公开 的 ， 但 是 使 用 的 前 提 和 是非 


商业 使 用 。 在 该 数据 集中 scripts 文人 
是 一 个 Perl 程序 ， 为 了 能 让 程序 运行 ， 需 要 有 一 个 Per1l 编译 器 ， 而 Ubuntu 18. 04. 3 LTS 


自 带 了 Perl 编译 器 和 运行 环境 ， 所 以 本 文 将 在 ubuntu 下 进行 分 词 的 评估 。 该 脚本 需要 输 


夹 下 包含 了 一 个 


py 


于 测评 的 脚本 文件 score, 该 文件 


入 三 个 参数 ， 分 别 为 标准 词 表 ， 标 准 切 分 ， 待 评测 的 切 分 [22]。 
本 文采 用 准确 率 (Precision)、 召 回 率 (Recall) 和 FF 值 (F-measure) 作为 分 词 的 


评价 指标 ， 其 计算 公式 为 


M 
x 100% (9) 


ps 2 _2PR 
“P+R 


N 


M 


M 
x 100% (10) 


x 100% (11) 


其 中 ，N 表示 实验 获得 的 新 词 总 个 数 ，M 表示 语 料 中 存在 的 新 词 总 个 数 
接 下 来 ， 本 文 基于 Bakeoff 提供 的 脚本 分 别 对 基础 词典 ， 候 补 词 典 ， 合 并 词典 进行 评 


一 、 


十 。 评 价 过 程 如 表 10 所 示 ， 


表 10 评价 过 程 


评价 过 程 


输入 : 


ancient dict. txt 


输出 : 


评价 指标 ， 准 确 率 (Precision)、 人 召 


回 


待 切 分 的 语料库 ancient original data. txt， 标 准 切 分 文件 ancient gold data. txt， 


基础 词典 ancient basic dict. txt， 候 补 词典 ancient addtion dict. txt， 合 并 词典 


率 (Recall) 和 F 值 (F-measure) 


@@ 准 备 待 切 分 的 语 料 ancient_original data. txt， 该 语 料 由 上 文 提 到 的 测试 数据 集 转 
换 而 来 ， 将 测试 数据 集中 的 分 词 标记 删除 得 到 原始 语 料 。 

包 使 用 上 文 编写 的 Python 分 词 器 对 待 切 分 语 料 进行 分 词 ， 分 词 器 使 用 基础 词典 
ancient basic dict. txt， 分 词 算法 使 用 正 向 最 大 匹配 。 

@ 输 出 已 分 词 的 古 汉 语文 本 ancient segmentation data. txt 

四 将 已 分 词 的 古 汉 语文 本 ancient segmentation data.txt ， 标 准 切 分 文本 
ancient_gold data. txt， 标 准 词典 ancient_dict. txt 输 入 Perl 评 测 脚本 并 在 Ubuntu 上 
运行 脚本 。 

@ 输出 使 用 基础 词典 分 词 的 评价 指标 ， 准 确 率 、 召 回 率 和 F 值 。 
@ 从 @ 重 新 开始 ， 并 使 用 候补 词典 ancient_ addition dict. txt， 得 到 候补 词典 分 词 
的 评价 指标 。 
@@ 从 @@ 重 新 开始 ， 并 使 用 合并 词典 ancient_dict.txt， 得 到 合并 词典 分 词 的 评价 指 


标 。 


在 使 用 正 向 最 大 匹配 分 词 算法 的 条 件 下 ， 基 础 词典 ， 候 补 词典 和 合并 后 的 词典 的 分 词 结果 


比较 如 表 11 所 示 ， 


表 11 三 个 词典 的 分 词 结果 比较 


”指标 。 基础 词典 候补 词典 合并 词典 


了 0. 801 0. 630 0. 821 
R 0. 838 0.778 0. 859 
F 0.819 0. 696 0. 839 


从 上 面 的 比较 可 以 看 出 ， 将 基础 词典 和 候补 词典 合并 之 后 ， 分 词 器 的 准确 性 得 到 了 很 
大 的 提升 。 
3. 3 与 古 汉 语 开源 分 词 器 比较 

甲 言 是 一 个 开源 的 古 汉 语 分 词 器 ， 为 了 验证 本 文 提出 的 分 词 器 是 否 能 够 达到 开源 分 词 
器 的 分 词 效果 ， 本 实验 将 本 文 的 古 汉 语 分 词 器 与 甲 言 分 词 器 进行 比较 ， 甲 言 分 词 器 中 包含 
了 两 种 分 词 算法 ， 一 种 是 基于 词典 的 分 词 ， 一 种 是 基于 HMM 模型 的 分 词 。 因 此 ， 我 们 分 别 


与 这 两 种 方式 进行 比较 。 评 价 方式 与 上 文 提 到 的 评价 过 程 类 似 ， 将 待 切 分 的 文本 


anci 


ent_original_data. txt 分 别 输入 两 个 分 词 器 ， 然 后 分 词 ， 并 输出 各 自 的 评价 指标 ， 


14%, 


准确 


率 、 召 回 率 和 F 值 ， 结 果 如 表 12 所 示 ， 


表 12 三 个 词典 的 分 词 结果 比较 


分 词 器 P R F 


本 文 的 分 词 器 0. 821 0. 859 0. 839 
甲 言 的 词典 分 词 ”0. 651 0.751 0. 698 
甲 言 的 HMM 分 词 ”0.750 0. 798 0.773 


由 此 可 以 看 出 ， 本 文 设 计 的 分 词 器 与 甲 言 的 两 种 分 词 模式 相 比 ， 在 准确 度 ， 召 回 率 ，F 


值 这 些 指标 上 均 有 明显 地 提升 ， 本 文 提出 的 分 词 器 的 F 值 比 甲 言 的 词典 分 词 模式 高 出 了 


总 体 上 取得 了 展 好 的 效果 。 由 此 表明 ， 基 于 互联 网 大 规模 语料库 的 词典 构建 在 古 汉语 


4. 总 结 


本 文 利用 大 规模 古文 语料库 ， 通 过 整合 了 互联 网 上 的 古 汉语 数据 资源 ， 生 成 了 一 个 古 


汉语 分 词 基础 词典 ， 并 使 用 N-Gram、 互 信息 、 信 息 焙 、 位 置 成 词 概率 相 结 合 的 新 词 发 现 的 


© 方式 在 大 规模 语料库 上 抽取 十 汉语 词汇 ， 弥 补 了 基础 词典 的 不 足 。 在 词典 的 基础 上 ， 本 文 
利用 正 向 最 大 匹配 实现 古文 的 分 词 ， 通 过 与 甲 言 进行 比较 ， 在 人 工 标注 的 分 词语 料 库 上 取 
得 了 良好 的 效果 。 


研究 


还 有 


本 研究 也 存在 一 定 的 局 限 。 例 如 本 文采 集 古 汉语 数据 所 用 的 数据 源 比 较 少 ， 在 以 后 的 
中 可 以 进一步 扩大 数据 源 ， 收 集 更 全 面 的 古 汉 语 数 据 ; 在 新 词 发 现 中 的 超 参数 的 设置 
竺 优化， 以 致 于 进一步 提升 分 词 的 准确 度 ; 在 本 文中 没有 考虑 歧义 词 处 理 ， 然 而 在 此 


A 


义 词 
了 排 


处 理 方面 ， 刘 风 成 [30] 提 出 AdaBoost. MH 算法 进行 语义 消 时 ， 并 引入 了 语义 范畴 , 提高 
靶 的 正确 率 。 


中 国 古代 文献 是 一 个 宝藏 ， 从 古 汉语 文本 中 挖 气 有 价值 的 信息 在 考古 中 有 很 重要 的 意 


义 。 


本 文 利用 在 线 大 规模 古文 语料库 ， 经 过 数据 处 理 ， 构 建 古 汉 语词 典 ， 利 用 正 向 最 大 区 
现 对 古文 的 分 词 。 通 过 与 甲 言 分 词 系统 进行 比较 ， 分 词 准 确 率 有 了 较 大 的 提高 。 通 过 


配 实 
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对 古文 献 的 分 析 研 究 ， 有 助 于 深入 了 解 
步 弘扬 传统 文化 提供 技术 支撑 。 


国文 化 的 变迁 ， 开 展 数 字 心 理 考古 研究 ， 为 进 一 
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